Измерение информации

Основные темы параграфа:

 

    Вам хорошо известно, что для измерения информации таких величин, как, например, расстояние, масса, время, существуют эталонные единицы. Для расстояния - это метр, для массы - это килограмм, для времени - секунда. Измерение происходит путем сопоставления измеряемой величины с эталонной единицей. Сколько раз эталонная единица укладывается в изменяемой величине, таков и результат измерения. Следовательно, и для измерения информации должна быть введена своя эталонная единица.

    Алфавитный подход позволяет измерять информационный объем текста на некотором языке (естественном или формальном), не связанный с содержанием этого текста

Алфавит. Мощность алфавита

Под алфавитом мы будем понимать набор букв, знаков препинаний, цифр, скобок и др. символов, используемых в тексте. В алфавит также следует включить и пробел, т.е пропуск между словами.

    Полное число символов в алфавите принято называть мощностью алфавита. Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54: 33 + 10 цифр + 11 знаков препинания, скобки пробел.

Информационный вес символа

     При алфавитном подходе считается, то каждый символ текста имеет определенный информационный вес. Информационный вес символа зависит от мощности алфавита. А каким может быть наименьшее число символом в алфавите? Оно равно двум! Скоро узнаете, что такой алфавит используется в компьютере. Он содержит всего 2 символа, которые обозначаются  цифрами "0" и "1". Его называют двоичным алфавитом. Изучая устройство и работу компьютера, вы узнаете, как с помощью всего двух символов можно представить любую информацию.

Информационный вес символа
двоичного алфавита принят

за единицу информации и называется 1 бит.

С увеличение мощности алфавита увеличивается информационный вес символов этого алфавита. Так, один символ из четырехсимвольного этого алфавита (N=4) "вести" 2 бита. Объяснение этому можно дать следующее: все символы такого алфавита можно закодировать всеми возможными комбинациями из двух цифр двоичного алфавита. Комбинацию из нескольких (двух, трех, десяти и т.д.) знаков двоичного алфавита назовем двоичным кодом.

Порядковый номер символа 1 2 3 4
Двузначный двоичный код 00 01 10 11

Используя три двоичные цифры, можно составить 8 различных комбинаций.

Порядковый номер символа 1 2 3 4 5 6 7 8
Трехзначный код 000 001 010 011 100 101 110 111